arxiv：2401.08719v2 [CS.SE] 2024年12月24日__

arxiv：2401.08719v2 [CS.SE] 2024年12月24日

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2401.08719v2 [CS.SE] 2024年12月24日

¥ 2.0

热度

大语言模型（LLM）的推理能力是至关重要的能力，尤其是在复杂的决策任务中。显示LLMS推理能力的一项重要任务是代码时间复杂性预测，其中包含各种复杂因素，例如变量和条件循环的输入范围。由于数据，语言限制有限和标签不足，因此无法提供严格评估的基准。他们不考虑基于Int-of表示的时间复杂性，而仅评估预测是否属于同一类，缺乏对正确预测的距离的衡量标准。为了解决这些规定，我们介绍了CodeComplex，这是第一个强大而广泛的数据集，旨在评估LLMS在预测代码时间复杂性方面的推理能力。CodeComplex构成了4,900个Java代码和同等数量的Python代码，克服语言和标记约束，并通过算法专家面板的输入特性仔细注释了复杂性标签。此外，我们提出了专门的评估指标，以推理复杂性预测任务，从而对LLMS的推理能力进行更精确，更可靠的评估。我们公开发布数据集和基线模型1，以促进相关的（NLP，SE和PL）通信，以利用和参与这项研究。

添加pdf代下载 VIP点击下载文件